数据要素确权:困境与突破
“
数字经济要想发展得又“快”又“稳”,对数据要素的确权是重中之重。但是,数据要素确权却由于其独特的、与传统生产要素迥异的特性,面临着一系列现实困境,该如何破局?
本文字数8397,阅读时长约26分钟
文|徐照宜 清华大学水木学者、经济管理学院博士后
周康林 清华大学经济学研究所硕士研究生
编辑|朱弢
日月如流,时过境迁,从地下汩汩涌起的黑色石油,到由“0”与“1”组成的数据,工业革命以来人类社会最受关注的生产要素,已经悄然发生转变。数字变革的“雄心”已经浮出水面,正对人类经济社会发展的传统秩序发起挑战。
在这场变革中,每个人都是主角。沿着电子信息产业摩尔定律的主线,云计算、大数据、物联网、人工智能、互联网、5G等新兴信息技术不断发展,每个人都得以接入信息网络,每个行为都留下“数字足迹”,风过留声,雁过留痕。据IDC《数据时代2025》预测,全球数据量将从2018年的33ZB(Zettabyte,十万亿亿字节)暴增至2025年的175ZB,增长超过5倍,相当于约2000亿个1TB硬盘的容量总和。
随着数据总量的数量级增长,数据结构也进一步复杂化,数据与数据之间的耦合性加深,从点状孤立数据到时间序列数据再到立体网状数据,数据系统将有望产生“涌现”的特性(复杂系统中产生的更高维度的新颖的、连贯的结构、模式和性质),数据的价值也将呈现出梅特卡夫定律(网络的价值与网络内的节点数的平方正相关)。
对于当前如此庞大的数据体量,人脑已经无能为力,必须依靠人工智能算力算法的暴力计算,数据的价值才得以充分挖掘和释放。例如,谷歌与柏林工业大学团队与今年3月发布史上最大的通用AI模型“PaLM-E”,其参数量高达5620亿,是GPT-3模型参数量的3倍有余,通过海量数据的投喂和模型训练,具备图像理解、语言生成、指令执行的“类人智慧”。
数据量的增加、处理数据的能力的提升,使得数字经济在社会经济发展中扮演着愈发重要的角色。根据中国信息通信研究院《全球数字经济白皮书(2022年)》,2021年全球47个国家数字经济增加值达38.1万亿美元,同比增长15.6%,在后疫情时代,全球经济复苏面临着严峻的挑战,数字经济的增长韧性与其对传统经济、实体经济发展的引擎带动效应更为凸显,数字经济成为了经济“加速器”和“压舱石”。
大力发展数字经济亦是中国自上而下的国家战略。
2023年2月,中共中央、国务院印发了《数字中国建设整体布局规划》,完善了发展数字经济的顶层设计,国家数据局的组建也将加强数字经济发展的制度保障。
总而言之,数字经济将深刻重塑社会经济的发展模式,其在信息时代的革命性与战略性意义已不言而喻。
时代已然来临,各种秉赋也都渐次完备,但数字经济的腾飞仍面临一块最大的绊脚石——数据要素确权。如果寻找到这一难题的解决方案,无疑将推动中国在全球数字化竞争中占得先机。
01
数据要素确权的意义与困境
人类对生产要素的认识,是伴随着经济形态的发展升级而螺旋式上升的。在不同的经济形态下,各生产要素的地位不同,生产要素的组合也有着不同的范式。
农业经济时代,土地和劳动力的结合是最基本和原始的生产模式,但地球上土地的供给是有限的,经济增长主要依靠劳动力人口的增长;工业经济时代,随着产业体系的健全和科技的进步,机器生产逐渐代替人工劳作,对生产效率的追求使得资本和技术的组合得到更多的关注;而在数字经济时代,传统生产要素的发展与积累已进入成熟期,数据要素得以逐渐被承认和重视。
传统生产要素的供给和增长都是有限的,而数据特殊的“无限性”、对生产要素组合关系的重塑能力、对生产效率的乘数效应,给了人们更大想象空间。数据要素之于数字经济,就好比石油之于工业经济,数据要素是数字经济的原料、动力与核心,也是数字经济时代的重要财产客体。根据科斯定理,只要财产权是明确的,并且交易成本为零或很小,那么无论最开始财产权是怎么分配的,最终市场均衡结果都是有效率的,是资源配置的帕累托最优状态。反之,财产权的模糊必将带来争议与纠纷,使得资源交易流通无从谈起,甚至造成社会福利损失。
对于数据要素而言,也是一样的道理,广义的数据确权既包含数据权属的划分,也包含数据权利的授予。数据确权是数据交易流通的保障,数据确权机制不清晰不完善,对建立统一的数据要素市场,对激活数据要素内蕴价值必然会造成阻碍,而这也是“数据孤岛”“数据垄断”等问题的症结。
问题的关键在于,数据要素与传统要素相比有着迥异的特性,数据权属不像传统生产要素那样清晰明确,从数据的生产到数据的价值实现有着较大的复杂性与模糊性,个人、企业、政府似乎都参与了数据的生产,都可以从数据收益之中分一杯羹,但如何分配最能兼顾效率与公平则尚无定论,学界和业界从经济学、法学、公共管理等视角出发都有着较多的阐述与争论,数据要素确权面临着复杂的现实困境。
数据要素特性。资料来源:作者梳理
难点一:数据要素的生成与价值实现涉及复杂的主体和环节。
数据要素生成的“元模式”很简单,只需要一个信息源、一个数据采集者、一个数据存储者。其中,采集和存储往往由同一个主体完成,或者是数据采集者通过购买、租赁市场通用的数据存储服务来完成。如果遵循这最基本的数据生成模式,则数据确权只需要在信息源和数据采集者两个主体之间协商即可。
但事情的不简单在于数据要素具有的价值稀疏性、价值未知性、分散性(碎片化性)等特性,直接采集得到而未经浓缩精炼、分析加工的数据往往是价值低且价值模糊的,同时也不是一般情况下数据要素的最终存在形态。实际上,数据的采集者、传输者、存储者、清洗者、标注者等等数据“后道工序”的参与主体都可以归类为广义的“数据加工者”。
如果承认数据加工在数据要素价值实现过程之中的常见性与必须性,承认数据加工所需的人工成本(算法研发、数据处理)、固定资本成本(服务器、计算机、传感器)等成本的投入不菲,那么自然会产生一个问题,那就是数据加工者能否参与数据产权的分配?因此,数据加工者对于数据要素产权的权益请求,其实是数据确权中重要而基本的问题。
以朴素的经验视角来看,没有激励,就缺乏动力,信息提供者、数据加工者对于数据要素的价值实现都有着不可或缺的贡献,理应都分得一杯羹,但问题的关键是应该如何分割。政治经济学与马克思主义经济学从资本循环角度对其做出了解释,而西方经济学则更侧重于对于建立可实现的协商分配机制。
可以将数据要素的加工与工农业原材料的加工进行类比,共同之处是数据要素和原材料都通过加工实现了价值增长。原材料的拥有者提供原材料,加工者投入其他生成要素对原材料进行加工,生产出更有价值的产品,常见的模式是“买断制”,加工者向原材料拥有者以一定的价格买入原材料,加工后的额外收益均归属于加工者所有,与原拥有者无关。
看起来,数据要素似乎也可以采取简单直接的“买断制”,但背后的逻辑缺陷是,一般的有形物品的拥有者预期的转让费用,其实已经包含了对加工者如何处置该物品以及能获得多少收益的合理预期,但数据要素的“买断”是无法预料其加工后的价值增长空间的(有可能是数千倍甚至更多的增长);同时,也难以预估加工者对数据加工处理的模式(是否会进行二次传播、进行数据篡改和扭曲)。
难点二:数据要素侵权难以识别与追溯。
与“买断制”相对的是“授权制”,“授权制”常常应用于技术专利、知识产权这类需要通过法律保障排他性(独占性)的生产要素。从这一维度而言,数据要素有着相似之处,其采取“授权制”比“买断制”更具合理性。
例如,迪士尼给玩具生产商进行商标授权,可以很清晰地计算出生产了多少个玩偶,总营收是多少,以及从中获得利润分成,并且可以起诉未经授权使用迪士尼品牌标识的山寨厂家。类似地,某项专利的拥有者也可以对某一企业进行一定期限内的专利授权,并且对未经授权或授权过期而采取相似技术路径的厂商展开侵权诉讼。
之所以商标和专利可以授权,往往是其具有整体性,商标是系列特殊文字图标的组合,专利则涉及独特的工艺、装置或配方,比较容易进行侵权识别。但是,数据要素具有无限复制性,其传播与使用则具有隐秘性,很难确认被授权方基于数据要素而获得的收益,也很难对是否使用了某一特定数据要素进行判别。
例如,消费者在使用甲App进行视频浏览时,授权平台采集自己的浏览记录用于智能算法推荐,甲App在未经消费者进一步授权的情况下,将数据共享给网购平台乙App而从中牟利,这显然违法违规。在现实生活中这样的现象是屡见不鲜的,但对侵权方的诉讼与取证往往有着不小的难度。而如果难以识别和定义数据要素侵权的行为,没有相应的追责方法和机制,那么数据要素“授权制”将会成为空谈。
难点三:数据要素的产权分配往往没有经过事先约定或存在强迫行为。
上面讨论的“买断制”与“授权制”,其前提是信息提供者已经对数据要素生成与数据产权有着清醒的认识,与数据采集者、加工者提前进行协商。但日常生活中,大多数数据要素的产生是在信息提供者无意识的状态下进行的,很多情况下生成的数据要素也是其他活动的副产品(例如用户浏览短视频、网购页面产生的数据),数据采集者、加工者并不需要与信息提供者充分协商,对于数据要素的产权分配自然更是没有事先约定。
更有甚者,数据采集者和信息提供者往往存在着势力失衡,信息提供者被迫进行授权。例如,由于互联网天然的网络效应,某些垂直领域的互联网平台企业往往有着高度集中的市场份额,消费者如果想要获取相应的服务,在注册成为用户这一阶段必须同意一长串信息授权的“霸王条款”,否则就无法进行下一步操作,这是一种“数据霸权”。而正因为数据要素的产权分配没有经过事先约定或存在强迫行为,则很有可能造成了信息提供者意思表示的失真和扭曲,从而导致数据产权分配在后期的纠纷与争议。
难点四:数据要素的确权面临着较高的协商成本。
难点一、二、三的重点都在数据要素确权的公平性,但不可否认的是,数据要素确权的效率也同样重要。究其原因在于:
其一,数据要素的生成是去中心化的,有着复杂多元的主体,因此数据要素确权需要协商的主体数量非常庞大,导致协商成本极高,例如,互联网巨头往往有着数以亿万计的用户规模,与每个用户一对一协商数据确权或制定个性化的数据产权分配补偿方案,明显是不切实际的。
其二,数据要素的价值有着较强时效性——这是其与传统生产要素最大的差异之一。土地、资本等要素的价值在时间维度上的变化是相对稳定且缓慢的,而数据要素如果不考虑特定需求下的历史追溯价值,其价值会随着时间流逝而快速衰减,这也符合我们的日常经验。例如,对于某电商平台的某品类销售数据,近年的数据是最能反映最新品类销售趋势的,价值也最大,而10年前的同类数据的价值可能就已经衰减得所剩无几了。因此,数据要素确权协商所需要的时间成本本身也会对数据要素的价值造成显著损耗,从而造成协商各方“双输”或“多输”的局面。
02
数据要素确权的实践与破局
不可否认,数据要素的确权由于其特性和现实条件的制约,面临着很大障碍。问题明确后,如何破局?在数字经济建设的中国实践中,其实已初步探索出了一系列办法与思路。
方法一:对同一数据产权的微观结构进行分层分置。
为什么要进行产权分层?其本质就是为了兼顾复杂多元主体参与价值创造和价值分配的效率与公平,同时,让产权可以在空间维度上化整为零、灵活分割,在时间维度上跨期调剂。
根据《民法典》,物权是指权利人依法对特定的物享有直接支配和排他的权利,包括所有权、用益物权和担保物权。对于传统的生产要素而言,中国人对其产权的分层与分级已经有了朴素的认知和深厚的经验,达成了潜在的共识和契约。根据清华大学教授龙登高的《中国传统地权制度及其变迁》,中国古代就有了“典权”“永佃制”“田面权”“押租”“活卖”以及私人产权、法人产权、国家产权等灵活多样的地权分层。
清华大学教授申卫星提出,构建数据“所有权+用益权”的协同格局,以实现数据财产权在个人与企业之间的均衡配置。2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》(即“数据二十条”),创造性地提出数据资源持有权、数据加工使用权、数据产品经营权“三权分置”的中国特色数据产权制度框架,这实际上也符合产权分层规律。由于从数据的生产到数据的价值实现涉及多个环节,持有数据的人不一定参与数据加工,加工数据的人也不一定参与数据经营,因此将权利分置,保障权利分配的灵活性,给予各环节主体以合法性,使得数据的价值实现过程可以顺利流畅进行。
方法二:对不同数据产权按特定属性进行分级处理。
在微观维度上,需要对同一数据产权的微观结构进行分层分置,而在宏观维度上,对不同数据产权也需要按照敏感度、时效性等属性进行分级处理。
清华大学教授戎珂、刘涛雄认为,不同数据生成和使用场景有着较大的差异,很难用统一的标准去进行数据确权,数字平台上的用户对数据进行分级授权可以尊重用户自身意愿,同时提升用户福利和社会福利。实际上,不仅仅是数字平台上用户的授权意愿不同,数据在多重维度上都是非标化的、异质性的,不同属性的数据产权需要分别看待、分级管理、分级保护。
敏感性是数据要素的本质特征之一,而敏感度则是对数据要素涉及国家安全、公共利益、个人隐私的程度的量化评价,是数据产权分级处理需要考虑的重要维度之一。
例如,某条城市道路的晚高峰车流数据与某医院病人的病史数据、某学校学生的家庭住址和家庭成员数据的敏感度肯定不同。对于敏感度高的数据,必须慎之又慎,谨慎确权与授权,并辅以隐私计算、数据脱敏、数据清洗等技术手段予以保障,否则一旦泄露必然造成严重的社会福利损失;而对于敏感度低的数据,则可在适度范围内进行灵活确权与授权,赋予更大的自由裁量空间。
2021年6月通过的《数据安全法》确立了数据的分级分类保护制度。
2021年8月,浙江省发布的《数字化改革公共数据分类分级指南》迈出了省级政府数据分级授权实践的第一步,按照数据敏感程度由高至低分别为敏感数据(L4级)、较敏感数据(L3级)、低敏感数据(L2级)、不敏感数据(L1级),对不敏感数据,可以直接查询调用,对敏感数据,则需经过行政审批、数据脱敏后才可获取。
上海数据交易所也在数据分级方面进行了前瞻探索,据《上海证券报》报道,上海数据交易所已经建立了“数据分级”和“分级交付”的基本架构和技术路线,并挂牌了800多个涉及多个行业的非高敏感的企业数据产品。
2021年12月,全国信息安全标准化技术委员会秘书处正式发布《网络安全标准实践指南——网络数据分类分级指引》,根据数据对国家安全、公共利益、个人权益、组织权益的影响程度,从低到高分成一般数据、重要数据、核心数据共三个级别,明确了中国网络数据分级的原则和框架。
同样,按数据时效性进行数据要素确权的分级处理也是值得思考和探索的,优先处理时效性更强的数据确权与授权,让数据要素更快地与应用场景进行匹配,尽量减少协商的时间成本带来的价值损耗。
方法三:对低敏感度数据采取灵活确权授权机制。
综合考虑信息提供者、数据采集者以及社会总体福利,事先约定数据产权分配的“原生性确权”是最为理想的选择,这也是国家应该予以提倡和鼓励的。但现实中,一是无法做到人人都有意识且有时间精力进行事前协商,二是数据的生成场景多元而复杂,不同场景下怎样的产权分配是合理的也尚无定论,事先约定数据产权分配仍然很困难。
但是,规定未经事先约定就不得使用数据要素的“一刀切”模式又未免太过武断,如果采取此种规定,会有大量的数据要素不能进入流通和使用环节,成为“僵尸数据”“纸面数据”,无法释放和实现其内在价值。
因此,对于一些敏感度较低,对于个人隐私、国家安全的威胁很弱的数据要素,是否可以采取更灵活、更具弹性的确权授权方式,在合法合规的范围内进行自由使用?对这类数据要素可建立“正面清单”或“禁止除外”机制,以及使用登记备案机制,同时,保留信息提供者的“事后追偿权”,对一定限度内的合理利益诉求也予以保障。这样一来,可以达到公平和效率在一定程度的平衡。“数据二十条”之所以要“以解决市场主体遇到的实际问题为导向,创新数据产权观念,淡化所有权、强调使用权,聚焦数据使用权流通”,也正是基于公平与效率相统一的思想。
方法四:采用区块链、人工智能等技术辅助数据要素确权。
既然数据要素是信息时代孕育和涌现的,那么将脱胎于信息土壤的新兴技术手段用于数据要素的确权,本质上就是“兵来将挡,水来土掩”的问题解决方式。
区块链是按照时序将数据区块(block)组合相连形成的链式数据结构,具有去中心化、不可篡改、不可伪造、可验证、可追溯等特性,是天然适用于数据要素权属确认的技术手段。而随着人工智能等技术的发展,数据贡献与侵权的识别也将更加智能化,更加精确,更加高效。
03
期待“拨云见日”
实际上,数字经济已经成为我们生活不可分割的一部分,无论是越来越快的千兆宽带,还是愈发便捷的网购下单,抑或是便民惠民的数字政府,触手可及的影音资源,全民都已成为数字经济的共建、共创、共享者。
数据要素确权是发展数字经济的基本问题,决定了数字经济发展得好不好,走得快不快、稳不稳、远不远。全社会也都在期盼着更成熟的数据要素确权机制的推出,在此基础上促进数据要素流动与交易,扩大居民和企业的要素收入来源,进行更精准的资源分配与收入调节,提升全社会的生产效率,实现经济的高质量发展,实现从“数据大国”到“数据强国”的飞跃。
无论如何,要建立公平与效率相统一的数据要素确权机制,既需要我们对数据要素的特性有更深入的认识与理解,也需要推出相应的法律法规体系对各方合法权益予以保障,同时还需要辅以新兴技术手段协同处理。
中国在数据确权问题上已进行了坚实的初步探索,学界业界都贡献了力量,可以说已走在世界前列,但不可否认,中国目前的数据确权机制仍然存在着不少的问题和缺陷。例如,目前关注的主要还是信息提供者与初级数据加工者(信息采集者)的简单确权与授权,但对于上游数据加工者到下游数据加工者的二次、多次授权,以及结构更为复杂的数据生成场景,都尚未展开充分讨论,而这必然涉及更困难的利益分配和产权分割问题。
尽管挑战严峻,但机遇并存。
自1978年12月十一届三中全会揭开改革开放的序幕以来,中国对新型生产要素的认识,在社会主义市场经济建设的中国实践中不断深化和加强。每次对新型生产要素的承认与确立,也都吹响了中国经济发展“提速度、强质量、上台阶”的先锋号。
需要看到,中国对数据要素确权的探索正在逐渐步入深水区与攻坚期。拨云见日终有时,守得云开见月明,数据要素在未来产权清晰的环境下绽放出的魅力,值得期待。